グラフは、データの様子を見るためにデータ分析の最初で使うこともありますし、 データ分析の結果を、わかりやすく人に伝えるために使うこともあります。
実務のデータ分析では、 ロバストな解析 を使うこともありますが、 難しい理論を使ってロバストにするよりも、グラフで分析した方が、はるかに楽で、早いことがよくあります。 グラフ統計は、 EDA(探索的データ分析) で中心的な役割を担います。
データ分析の解説書の中で、グラフの説明の仕方には、いくつか種類があります。
グラフの解説をする時に、「グラフ統計」という名前を使っている文献は少ないものの、複数ありますので、 ある程度は認知されている名前のようです。
話は変わりますが、数学の分野で「グラフ」というと、 ネットワークグラフ の形の理論の話をしていることが多いです。 数理モデリング や 因果推論 に使われています。
このサイトでは、世間一般で理解されている「グラフ」と、数学の分野の「グラフ」の両方が出て来ます。 このページの内容は前者なのですが、前者であることを誤解なく表すために、このページのタイトルは「グラフ統計」にしました。
筆者の場合、 グラフ統計の中でも、製造業の工場関係のものをすることが多いです。 その時には、全部の変数を可視化して目で見てみることと、 層別サンプリング をしたグラフを見ることが大事です。 とても泥臭い作業になるのですが、一方で、効率良く、素早くやってしまわないと、 製造現場から求められるスピードに合いません。
また、グラフを使うと、「何が起きているのか」、「どうすべきか」という事を印象に残る形で伝えられるのですが、 初めてその話を聞く人に明確に伝えるには、ひとつのグラフに、ひとつのメッセージが明確に見えるようにします。 グラフはシンプルにする必要があります。 例えば、3次元散布図よりも、2次元散布図の方が良い事が多いです。 2次元散布図よりも、ヒストグラムの方が良い事が多いです。 ちなみに、箱ひげ図や、1次元散布図は便利ですが、見慣れている人でないと、「このグラフは何?」となって、不親切なグラフになります。
グラフを描く目的はいろいろですが、このサイトの場合は、上記のような感じでグラフを描く時の話になっています。
このページの内容は、「見える化」、「データ可視化」、「データ視覚化」、「データビジュアライゼーション」といった分野と、 かなりの部分が重なります。
違うのは、グラフを「見せるためのツール」というだけではなく、「データ分析のツール」と考えている点です。 ちなみに、「データ可視化」、「データ視覚化」、「データビジュアライゼーション」の文献の中にも、分析の話が出て来ることもあります。
たいていのグラフは、四角の枠の中に作られます。
「グラフの縦軸と横軸は、何にするのか?」、 「縦軸と横軸の範囲は、どうするのか?」といったことが、分析者の腕の見せ所となります。 これらの内容で、同じデータでも、グラフの説得力が変わります。
グラフの見方としては、「範囲の外は気にしなくて良いのか?」、「選ばれていない変数は見なくて良いか?」というあたりが、 チェックポイントになります。
「グラフ統計のはなし」 石村貞夫 著 東京図書 1995
本のタイトルが「グラフ統計」です。
いろいろなグラフの簡単な説明の後で、
時系列分析
、
クラスター分析
、
共分散構造分析
、曲線のあてはめ(
スプライン
)
の理論を、グラフを使いながら紹介しています。
「読む統計学使う統計学」 広田すみれ 著 慶應義塾大学出版会 2013
約25ページが「グラフ統計」というタイトルの内容になっていて、いろいろなグラフを紹介しています。
「Head Firstデータ解析 頭とからだで覚えるデータ解析の基本」 Michael Milton 著 オライリー・ジャパン 2010
データ解析を実際に進める時に必要な作業や考え方を、親しみやすい説明の仕方で丁寧に解説しています。
グラフ統計も丁寧です。折れ線グラフ、ヒストグラム、散布図が出て来ます。
折れ線グラフは、変化の仕方が逆になるもの(マイナスの相関関係があるもの)に注目する話があります。
ひとつの散布図から、ばらつきを見たり、回帰線による
外挿
でデータのない部分を考察する話があります。
格子状散布図として、散布図を縦横に3つずつにして、9枚を並べたものは2種類あります。
ひとつは、縦軸が収入なのは共通で、横の分割の違いが横軸の3つの変数になっていて、縦の分割の違いが3つのホームページの違いになっているものです。
もうひとつが縦軸がWebヒット数、横軸がコメント数なのは共通で、9つのグラフの違いが人の違いになっているものです。
「直感でわかるデータ分析」 原隆志 著 技術評論社 2010
Excelのピボットテーブル
を使った集計と、その集計結果をピボットグラフ(折れ線グラフと棒グラフ)を使って見るデータ分析について、
丁寧に説明されています。
「データサイエンス入門 データ取得・可視化・分析の全体像がわかる」 上田雅夫・後藤正幸 著 有斐閣 2022
データの可視化として、基本的なグラフの解説があります。
「指標・特徴量の設計から始めるデータ可視化学入門 データを洞察につなげる技術」 江崎貴裕 著 ソシム 2023
いろいろなグラフの紹介は半分くらいで、残り半分は、
統計量
などの指標を使ってデータを要約する話になっています。
後半の話も、データの可視化として紹介しているところが特徴の本です。
「データビジュアライゼーションの教科書」 藤俊久仁・渡部良一 著 秀和システム 2019
グラフの入れるべきことと、入れない方が良いことについて、様々なものが挙げられています。
二軸や立体的なグラフのように、グラフをわかりにくくする表現を省く話が多めですが、
回帰線で全体的な傾向がわかるようにしたり、
たくさんの折れ線が混ざっている場合は、分割したりなど、あえて手間を加える話もあります。
「データ視覚化のデザイン」 永田ゆかり 著 SBクリエイティブ 2020
グラフで見せる効果を説明し、グラフの選び方や、色の使い方など、より効果的にするためのポイントを説明しています。
「データ思考入門」 荻原和樹 著 講談社 2023
データを可視化することで、効果的に伝えたり、誤解のないように伝えるための例が示されています。
「ハーバード・ビジネス・レビュー流データビジュアライゼーション」 スコット・ベリナート 著 ダイヤモンド社 2022
データの可視化を、説得の手段とすることについての本です。
「データビジュアライゼーションの基礎 明確で、魅力的で、説得力のあるデータの見せ方・伝え方」 Claus O. Wilke 著 オライリー・ジャパン 2022
いろいろな事が書いてあります。
複数の情報の見せ方があります。
「データビジュアライゼーション データ駆動型デザインガイド」 Andy Kirk 著 朝倉書店 2021
データを人に見せるためのデザインの進め方
「データビジュアライゼーションのデザインパターン20 混沌から意味を見つける可視化の理論と導入」 鈴木雅彦・鈴村嘉右 著 技術評論社 2015
様々なグラフを紹介しています。
「プロ直伝 伝わるデータ・ビジュアル術」 五十嵐康伸 監修 技術評論社 2019
様々なグラフのソフトを紹介しています。無料のものあります。
どちらかと言えば、グラフ統計や技術情報のためのグラフではなく、不特定多数の人にも親しみやすいグラフの話になっています。
Tableau・Power BI Desktop:Excelのピボットグラフをとても使いやすくして、グラフの種類も増やしたようなソフト
Gapminder:折れ線グラフのアニメーションが作れる。
Bingマップ・ArcGIS Online・OIGS:地図とグラフを組み合わせられるソフト
E2D3・Infogram:「インフォグラフィック」といって、絵文字を使ったりして親しみやすくデザインされたグラフ。E2D3はExcelのアドインになっている。
Cytospace・Gephi:ネットワークのグラフが作れるソフト
RESAS・IHME:RESASが国内の行政データ、IHMEが世界の健康データを調べることができるサイト
「Rによるインタラクティブなデータビジュアライゼーション 探索的データ解析のためのplotlyとshiny」 Carson Sievert 著 共立出版 2022
探索的データ解析として、PlotlyやShinyによる視覚的な方法を紹介しています。
(Shinyは、
ウェブアプリR-EDA1
や
ウェブアプリR-QCA1
で使っています。)
「データ可視化プログラミング」 佐藤智和・田中琢真 著 学術図書出版社 2021
画像データの見せ方の本です。
「データ分析のためのデータ可視化入門」 キーラン・ヒーリー 著 講談社サイエンティフィク 2021
Rでグラフを作成する時の本です。
「エンジニアのためのデータ可視化〈実践〉入門 D3.jsによるWebの可視化」 森藤大地・あんちべ 著 技術評論社 2014
具体的なソフトの使い方の他に、「何を可視化するか?KPIはどうするか?」という話もあります。
「データ可視化プログラミング入門」 山辺真幸・古堅真彦 著 秀和システム 2013
一般的な可視化の話の他に、曲線の描き方や見せ方があります。
「データ視覚化の人類史 グラフの発明から時間と空間の可視化まで」 マイケル・フレンドリー、ハワード・ウェイナー 著 青土社 2021
歴史の本なのですが、扱っている内容が、データを視覚化する方法になっています。
クロノフォトグラフィのように、「絵」として見ても面白いようなグラフもあります。
順路 次は グラフ統計のソフト